自变量与因变量的特定百分位数之间的关系建模
数据从小到大排列,q 分位数为 m 则表示该组数据中 100q% 的数据小于 m。满足q%的样本在曲线下方
特点
-
分位数回归不会假设目标变量的分布
-
分位数回归趋向于抑制偏离观测值的影响
MAE 是一种中位数的分位数回归
公式定义 #card
-
条件概率 F(y∣X=x)=P(Y≤y∣X=x)=E(1{Y≤y}∣X=x)
-
Qα=inf{y:F(y∣X=x)≥α}
分位数回归用途: #card
单点损失函数–weighted absolute deviations #card
-
Lα(y,q)={α∣y−q∣(1−α)∣y−q∣ if y>q if y≤q
-
整体优化目标
- Qα(x)=argminqE{Lα(Y,q)∣X=x}.
分位数回归可以通过随机森林实现 #card
-
训练中单颗树每个落入叶子结点的样本权重占比
- wi(x,θ)=#{j:Xj∈Rℓ(x,θ)}1{Xi∈Rℓ(x,θ)}.
-
随机森林每个落入叶子结点样本权重占比
- wi(x)=k−1∑t=1kwi(x,θt)
-
随机森林的预测结果
- μ^(x)=∑i=1nwi(x)Yi.
随机森林本质上在approximate the conditional mean E(Y∣X=x) ,因此考虑用 #card
总结通过随机森林得到分位数回归的过程 #card
